AWS Trainium 2
AWS 第二代自研 AI 训练芯片(2024-12 GA),由 AWS 内部 Annapurna Labs 设计,目标是为 Anthropic Claude 模型训练提供低成本算力,挑战 NVIDIA 在 AI 训练市场的定价。
关键规格
| 维度 | 数值 |
|---|---|
| 发布 | 2024-12 GA(re:Invent 2024) |
| 制程 | TSMC 5nm(推测) |
| FP8 算力 | ~1,300 TFLOPS(单芯片) |
| 显存 | 96 GB HBM3 |
| 显存带宽 | 2.9 TB/s |
| 互联 | NeuronLink-v3(高速互联) |
| 整机形态 | Trn2 EC2 实例(16 卡)/ Trn2 UltraServer(64 卡) |
| 集群形态 | Project Rainier(数十万颗 Trainium 2 集群,专为 Anthropic 建) |
市场定位
Trainium 2 是 AWS"对抗 NVIDIA 议价权"的核心武器:
- 价格优势 —— 对内成本约为 H100 的 40-50%
- 绑定 Anthropic —— AWS $80 亿投资 Anthropic 的核心条件之一是"Anthropic 在 Trainium 训练 Claude"
- Project Rainier —— 2025 落地的超大规模 Trainium 2 集群,预计部署 40 万颗以上
- 软件层 NeuronSDK 兼容 PyTorch / JAX,但调优工程量大
客户与部署
- Anthropic —— 主力客户,Claude 训练在 Trainium 2
- AWS 内部 —— 部分 Bedrock 模型微调
- 第三方 —— 大型 AWS 客户实验性使用,未大规模采用
演进路线
Trainium 1(2022, 16nm 级,小规模商用)→ Trainium 2(2024, 主力)→ Trainium 3(路线图 2025-2026)
关键来源
- 2-01-核心逻辑芯片 —— CSP 自研芯片市场份额
- 3-01-云计算与智算平台 —— AWS 算力策略
关联
↑ up::2-01-核心逻辑芯片 Annapurna Labs Marvell ↓ down::3-01-云计算与智算平台 Anthropic ⚔ competitor::NVIDIA H100 NVIDIA B200 Google TPU v6 Trillium Google TPU v7 Ironwood ∈ belongs_to::2-01-核心逻辑芯片